nodeJs爬取网页数据

您所在的位置：网站首页 › nodejs 爬虫上货 › nodeJs爬取网页数据

nodeJs爬取网页数据

2023-11-16 14:05| 来源: 网络整理| 查看: 265

发现node可以爬虫，正好我在找暑期实习，然后就使用node爬一下网站数据找实习。

准备工作安装node，npm安装依赖包[cheerio, express， eventproxy] http和express模块的使用学习爬取目标网站 //加载http模块 var http = require('http'); //目标网站，嘿嘿，这个网站有很多实习职位 var pageUrl = 'http://shixi.info/'; http.get(pageUrl, function(res) { var html = ''; res.on('data', function(data) { html += data; }); res.on('end', function() { console.log(html); }); });

http的get请求一个目标网站，回调函数的参数是response，绑定两个事件，一个'data'事件,会不断触发获取数据，数据获取完触发’end‘ 事件。

爬到的的数据就是目标网站的html源代码。

现在html代码有了，我们该怎么解析这个呢？

解析html代码

在这里我们使用cheerio模块，是服务器端的html解析模块，使用方法类型jQuery

这样我们就把目标页面的每条招聘信息的网址存放进了一个数组，当然我们也可以通过对象字面量存一些其他数据，比如招聘信息的title，date等等。

可能有人会问，我只要网址干嘛？嘿嘿，因为JD是在详情页里面，不去爬详情页，我咋看JD。

并发请求

为演示方便：只获取了职位title。

对arrUrl迭代，GET请求。因为是异步操作，所以在这里我们建一个count变量，每次完成一个操作count++，执行done函数，如果count值和arrUrl数组的长度相同，执行函数。

浏览器打开 http://127.0.0.1:8888，就能看到我们爬的数据了。

当然我们也可以对这些数据处理一下，返回到网页的是html内容文本。

使用eventproxy模块控制并发

刚才我们使用的是count变量，有些不够优雅。这里我们引入eventproxy模块。

通过nodejs爬虫的学习，学习到了http，express，cheerio，eventproxy的简单使用。更了解到了node异步编程。

《使用 eventproxy 控制并发》

Http模块

【本文地址】

nodeJs爬取网页数据

nodeJs爬取网页数据

今日新闻

推荐新闻